AI머신러닝 · 10

LoRA와 QLoRA

작성자 : Heehyeon Yoo|2026-03-28

# 머신러닝# LoRA# QLoRA# 파인튜닝# 모델경량화

1. 전체 파인튜닝의 부담

언어 모델을 특정 목적에 맞게 바꾸고 싶다고 해서 항상 모델 전체를 다시 학습시킬 필요는 없다. 오히려 그 방식은 비용이 너무 크다. 모델이 커질수록 메모리 요구량이 급격히 늘고 학습 시간이 길어진다. 원래 모델이 갖고 있던 일반 능력을 망가뜨릴 위험도 함께 커진다.

그래서 파인튜닝의 현실적인 질문은 "전체를 다시 학습할 것인가"가 아니라 "어느 부분만 바꿔도 목적에 맞는가"가 된다. LoRA는 바로 이 질문에서 나온다. 모델 전체를 건드리지 않고 작은 변화만 얹어서 목적에 맞게 조정하자는 발상이다.

이 접근이 중요한 이유는 단순히 싸기 때문만이 아니다. 원래 모델은 그대로 두고, 필요한 적응만 따로 관리할 수 있기 때문이다. 업무별로 다른 어댑터를 붙였다 떼는 식의 운영도 가능해진다.

2. 저랭크 어댑터

LoRA는 모델의 기존 가중치를 직접 크게 바꾸지 않는다. 기본 모델은 얼려 두고, 일부 선형 계층에 작은 보조 행렬을 추가해 그 변화분만 학습한다. 흔히 말하는 저랭크 적응이 이 구조다.

핵심은 변화량을 아주 큰 행렬 전체로 표현하지 않고, 더 작은 차원의 두 행렬 곱으로 근사한다는 점이다. 그래서 학습해야 할 파라미터 수가 크게 줄어든다. 같은 목적에 맞게 모델을 조정하더라도 메모리 부담이 훨씬 작고, 저장해야 하는 것도 어댑터 가중치 정도로 줄어든다.

이 구조는 생각보다 실용적이다. 기본 모델은 그대로 유지되고, 태스크별로 다른 LoRA 어댑터만 갈아 끼울 수 있다. 한 모델을 여러 목적에 맞게 쓰고 싶은 환경에서는 이 점이 특히 크다.

3. 양자화된 파인튜닝

QLoRA는 여기서 한 단계 더 간다. 기본 모델을 양자화한 상태로 올려 두고, 그 위에 LoRA 어댑터만 학습시키는 방식이다. 말 그대로 양자화와 LoRA를 합친 구조다.

이 방식이 나오기 전에는 "양자화는 추론용, 파인튜닝은 원본 정밀도"라는 구분이 더 강했다. QLoRA는 그 경계를 많이 낮췄다. 기본 모델을 더 적은 메모리로 올려 둔 상태에서도 목적 적응이 가능하다는 걸 보여줬기 때문이다. 그래서 큰 GPU 없이도 상대적으로 큰 모델을 다루는 길이 열렸다.

물론 아무 대가 없이 되는 일은 아니다. 양자화된 모델은 표현 정밀도가 줄어든다. 여기에 어댑터까지 얹는 구조라서, 데이터가 약하거나 목표가 애매하면 성능이 쉽게 흔들릴 수 있다. QLoRA는 "작은 비용으로 충분한 성능"을 노리는 방법이지, 어떤 상황에서나 최선의 품질을 보장하는 방법은 아니다.

4. 메모리와 성능의 교환

LoRA와 QLoRA의 가장 큰 장점은 메모리 절감이다. 전체 파인튜닝은 모델 파라미터 전체와 옵티마이저 상태를 함께 안고 가야 한다. 반면 LoRA는 학습 대상이 훨씬 적다. QLoRA는 여기에 기본 모델 양자화까지 더하니, 같은 하드웨어에서 다룰 수 있는 모델 크기가 달라진다.

하지만 메모리 절감이 곧바로 품질 보장으로 이어지지는 않는다. 어댑터의 rank를 너무 낮게 잡으면 표현력이 부족해질 수 있다. 어떤 계층에 어댑터를 붙일지도 중요하다. 데이터셋이 작거나 노이즈가 많으면 적응 방향 자체가 흔들린다. 결국 이 기법들은 계산 비용을 줄여 주지만, 문제 정의와 데이터 품질을 대신 해결해 주지는 않는다.

5. 언제 쓰고 언제 안 쓰는가

LoRA와 QLoRA는 목적이 분명할 때 강하다. 특정 말투를 익히게 하거나, 특정 도메인 용어를 잘 처리하게 하거나, 제한된 업무 형식에 맞춰 응답 습관을 조정하는 데는 효과적이다. 반면 모델의 기본 능력 자체를 크게 끌어올리거나, 완전히 다른 수준의 추론 능력을 새로 넣는 데는 한계가 있다.

그래서 이 기법을 볼 때는 "적은 비용으로 얼마나 많이 바꿀 수 있는가"보다 "기본 모델을 유지한 채 어느 정도까지 방향을 틀 수 있는가"를 보는 편이 맞다. LoRA는 전체 재학습의 대체재라기보다, 목적이 분명한 모델 적응 도구에 가깝다. QLoRA는 그 적응 도구를 더 작은 자원 안으로 끌고 들어온 버전이라고 보면 된다.

파라미터 효율적 파인튜닝

도메인 적응과 기업 데이터